HS 2025
LV-Leitung: Dr. Sandra Grinschgl / MSc. Aaron Friedli
Tutor: BSc. Lars Schilling
3. Einheit, 01.10.2025
https://r-you-ready.github.io/HS2025/front_page.html
Link wurde in Ilias wurde aktualisiert
Was hat euch Schwierigkeiten bereitet?
Welche Übungen sollen wir gemeinsam live durchgehen?
Gibt es noch Unklarheiten?
Musterlösungen ab jetzt online für Block 1!
siehe Liste auf Ilias
Planung, Organisation, Speicherung, Dokumentation und Archivierung von Daten während des gesamten Forschungsprozesses
Fair Prinzipien
Data Management Plan (SNF)
Förderorganisationen & Journals
Praktische Umsetzung:
Ordnerstrukturen & Versionierung
Dokumentation (README, Codebooks)
Offene Dateiformate
Standard für die Organisation von Daten, Skripten und weiteren Studiendokumenten
Ein Standard von vielen Möglichen
Leicht Abgeändertes Format für unser Seminar
Hilft euch eine übersichtliche Ordnerstruktur zu behalten
Datensätze nur in “data”.
Die Rohdatenfiles werden nicht bearbeitet!
Der aufbereitete Datensatz -> data/processed
Codebook in Ordner “data”
Datenanalyseplan in “preregistration”
Skripte in “code”
Aufbereitungsschritte im Skript “processing”
Analyse (mit dem processed datensatz) im Skript “analysis”
Keine Redundanzen!
Keine redundanten Dateien
Keine redundanten Pakete (Nur Pakete laden, die auch verwendet werden).
📦 Packages welche helfen sollen Psych-DS Struktur & Stylevorgaben leichter einzuhalten.
Für Masterarbeiten: Psychdsish
Funktionen wie: create_project_skeleton(), check_unused_objects(), validator()
🥅 Ziel: Einhaltung von Standards erleichtern
👗Styler: Funktion um “unschön” formatierten Code leserlicher zu machen. 👉 Hands On!
Namen können aus Buchstaben, Zahlen und Zeichen (_ oder .) bestehen
Er muss mit Buchstaben begonnen werden und darf keine Leerzeichen beinhalten
Sonderzeichen und Großbuchstaben sollten vermieden werden Keine Namen verwenden, die schon an Funktionen vergeben sind (z.B. mean())
Empfehlung für einen leserlichen Code: snake_case
Name soll Variable inhaltlich bestmöglich beschreiben
Reproduzierbarkeit; „clarity instead of brevity“
Benennung am besten in Englisch um internationalen Standards zu folgen
Kommentierung von R-Code mit #
Text nach # wird ignoriert (für 1 Zeile)
Neue Zeilen müssen wieder mit # beginnen
Leerzeichen:
Vor und nach mathematischen Operatoren: 2+2 vs 2 + 2
Vor und nach Zuweisungen: x<-sum(1+2) vs x <- sum(1 + 2)
Aber nicht vor und nach sich öffnenden oder schließenden Klammern oder Anführungszeichen
Nach Kommas (aber nicht davor)
Weitere Leerzeichen erlaubt wenn die Leserlichkeit erhöht wird (z.B. bei Einrückungen)
Verwendung des Pipe Operators (%>% oder |> ) –> Erklärung folgt in kommenden Wochen!
Zeilenumbrüche für langen Code verwenden
Styler: Funktion die Code automatisch in dieses Format bringt. 👉 Hands On!
📖 Lesbarkeit für Menschen und Maschine
🧑💻 Für Menschen: Verwende aussagekräftige Dateinamen, die klar beschreiben, was in der Datei enthalten ist.
💻 Für Maschinen: Vermeide Leerzeichen, Sonderzeichen und Symbole in Dateinamen – bleibe bei Buchstaben, Zahlen und Unterstrichen.
🔢 Struktur: Benenne Dateien so, dass sie auch mit der Standard-Sortierung von Ordnern sinnvoll angeordnet werden. Ein bewährter Ansatz ist, mit Zahlen zu beginnen, um eine logische Reihenfolge abzubilden.
Naive Personen sollen Datensatz nachvollziehen können (Reproduzierbarkeit & Zusatzanalysen)
Beinhaltet eine Liste und Beschreibung aller Variablen, z.B.
Wie wurde die Variable erhoben (z.B. aus welchem Fragebogen)?
Wie wurde die Variable berechnet (z.B. Summenscore, Mittelwert)?
Welche Werte kann die Variable annehmen (theoretisches Minimum und Maximum)?
Variablennamen in Codebook sollen identisch zu Variablennamen in Datensatz sein
Variable muss ausführlich genug beschrieben sein, sodass andere Personen es nachvollziehen können
Kann in verschiedenen Formaten erstellt werden (Word, Excel, ect.)
Excel-Vorlage für das Seminar (siehe ZIP Datei Abschlussprojekt)
Beispiel: “Example_Codebook” - Ordner
Für weitere Anleitungen siehe “Guideline Codebook”
Siehe auch: Pennington (2023)
Bereits vorhanden in euren Ordnern (r_you_ready)
Wir mergen diese heute oder in EH4 zu einem vollständigen Datensatz –> dat_full
Notwendig für „gemergten“ Datensatz „dat_full“
Vorlage ist auf Englisch, kann aber auch auf Deutsch ausgefüllt werden (selbes gilt für Datenanalyseplan)
Basierend auf Horstmann et al. (2020)
Abgabe bis EH6 (22.10) über ILIAS und via Email an Peer-Partner:in
Danach Peer Feedback
Demo Beispiel:
Digitale Rohdaten
Skript soll den gesamten Weg von den Rohdaten bis hin zu den Ergebnissen dokumentieren
Wenn man euren Code auf den Rohdaten laufen lässt, sollte man (fehlerfrei) zu den Ergebnissen kommen
Skript ist kommentiert und sinnvoll gegliedert
Projekte
Daten einlesen
Daten speichern
Fortsetzung Coding Basics
… Uns mit den Grundlagen von Forschungsdatenmanagement beschäftigt
… Psych-DS als einen Standard kennengelernt
…Style-Empfehlungen für R Code besprochen
…die Gründe für und den Aufbau von einem Codebook besprochen
…Datensätze in R importiert
…diese gemerged und exportiert (Fortsetzung in EH 4)
Horstmann, K. T., Arslan, R. C., & Greiff, S. (2020). Generating Codebooks to Ensure the Independent Use of Research Data: Some Guidelines. European Journal of Psychological Assessment, 36(5), 721–729. https://doi.org/10.1027/1015-5759/a000620
Pennington, C. R. (2023). A student’s guide to open science: Using the replication crisis to reform psychology. McGraw Hill.